在經過昨天的教學後,我們知道了每一步的重要性,任何的細節都會影響最後的結果!而在我們做好原始資料的準備與處理後,我們就繼續接下來的學習吧~
現在,我們要設置專門儲存向量化資料的向量資料庫(Vector Database),這次我們選擇 Qdrant 作為我們的向量資料庫。
Qdrant 是一套開源的向量資料庫,它提供了一個方便的 API 服務,專門設計用於儲存、搜尋和管理向量。
Qdrant 有以下特點:
在 Qdrant 的官網中也有提供他們測試的 benchmark 供參考,可以從裡面看到,相較於其他向量資料庫,Qdrant 的準確度是最高的,同時延遲也是最低的。
在安裝的部分,Qdrant 的官網也有提供安裝教學,Github 上也有 Python 的安裝教學。
在安裝好 Qdrant 後,我們就要來創建一個 Collection 啦~
Qdrant 的 Collections 相當於一般資料庫的 table,所以我們要先創建好一個 Collection 才能進行向量資料的儲存,而計算向量間相似性的方式也是在這個步驟進行設置。
from qdrant_client import QdrantClient, models
# 這是與 Qdrant 伺服器互動的客戶端,這裡的 URL 表示是本地伺服器
client = QdrantClient(url="http://localhost:6333")
client.create_collection(
collection_name="{collection_name}",
vectors_config=models.VectorParams(size=100, distance=models.Distance.COSINE),
)
create_collection 的設置參數:
到目前這裡我們就算是成功安裝 Qdrant 並且創建了一個 Collection,接下來我們就要開始設置詞嵌入模型(Embedding Model)囉~
https://qdrant.tech/documentation/overview/